[115] על RLHF ומודלי שפה גדולים
Update: 2025-04-19
Description
בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.
בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.
Comments
In Channel

![[115] על RLHF ומודלי שפה גדולים [115] על RLHF ומודלי שפה גדולים](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/e0ac8bbc1f0df270.jpg)
![[126] איך עושים מחקר ופיתוח בעולם ה-GenAI עם עוז ליבנה [126] איך עושים מחקר ופיתוח בעולם ה-GenAI עם עוז ליבנה](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/8e6c423164e991c0.jpg)
![[125] על חוקי הסקייל של מודלי שפה עם ד״ר ג׳וני רוזנפלד מMIT [125] על חוקי הסקייל של מודלי שפה עם ד״ר ג׳וני רוזנפלד מMIT](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/384f59f951485d24.jpg)
![[124] איך מאמנים מודלים לשכוח - עם פרופ עודד שמואלי [124] איך מאמנים מודלים לשכוח - עם פרופ עודד שמואלי](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/5c20856739a78d9e.jpg)
![[117] חיפוש והמלצה 2025 - חוזרים אחורה - סיכום כנס הייסטאק [117] חיפוש והמלצה 2025 - חוזרים אחורה - סיכום כנס הייסטאק](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/2ef5811ee3c91310.jpg)
![[123] על דיפ לרנינג, דאטא טאבולרי וTabStar עם אלן ארזי [123] על דיפ לרנינג, דאטא טאבולרי וTabStar עם אלן ארזי](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/91420809fe8767cf.jpg)
![[122] על הקשר בין דחיסה ללמידה עם פרופ. רביד זיו [122] על הקשר בין דחיסה ללמידה עם פרופ. רביד זיו](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/8775061429788465.jpg)
![[121] על אומנות ובינה מלאכותית גנרטיבית - עם מתי מריאנסקי [121] על אומנות ובינה מלאכותית גנרטיבית - עם מתי מריאנסקי](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/0e8573e247732cfe.jpg)
![[119] איך הגעתי למליוני חשיפות בלינקדין עם AI - עם מיכאל קיסילנקו [119] איך הגעתי למליוני חשיפות בלינקדין עם AI - עם מיכאל קיסילנקו](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/6021a880a43fe6a9.jpg)
![[114] קבלת החלטות ארוכות טווח עם פרופ. גיא שני [114] קבלת החלטות ארוכות טווח עם פרופ. גיא שני](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/1eb63609f705b659.jpg)
![[128] AI Coding - עם גילי נחום - AWS [128] AI Coding - עם גילי נחום - AWS](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/ed0abdbe959f2ebf.jpg)
![[120] איך מודלי שפה עובדים טוב גם לא באנגלית - עם גיא רוטמן, גונג [120] איך מודלי שפה עובדים טוב גם לא באנגלית - עם גיא רוטמן, גונג](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/512290f5ea33d5c6.jpg)
![[118] מענה על שאלות חזותיות VQA - עם פרופ עידן שוורץ [118] מענה על שאלות חזותיות VQA - עם פרופ עידן שוורץ](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/62dac8f5f1e7c1be.jpg)
![[113] NVIDIA GTC 2025 - סיכום הכנס [113] NVIDIA GTC 2025 - סיכום הכנס](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/0330b37d5808ebbb.jpg)
![[112] בעקבות המאמר של מטא עם לירון יצחקי אלרהנד [112] בעקבות המאמר של מטא עם לירון יצחקי אלרהנד](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/26aaabd03d728a6e.jpg)
![[144] מדיה גנרטיבית בגוגל עם שי אלון [144] מדיה גנרטיבית בגוגל עם שי אלון](https://s3.castbox.fm/75/94/92/6bd2eeec6d8d91c95d9e4d4ef54cb828b5_scaled_v1_400.jpg)
![[143] זוויות של בינה מלאכותית עם ד״ר אלישע רוזנצוויג [143] זוויות של בינה מלאכותית עם ד״ר אלישע רוזנצוויג](https://s3.castbox.fm/19/03/f4/b3c3387972e5404b4302372ffb73a54b84_scaled_v1_400.jpg)
![[142] השקרים שUMAP מספר לנו [142] השקרים שUMAP מספר לנו](https://s3.castbox.fm/c6/5d/66/7924c1e2f73536cdbe2cfb4588053ed0e2_scaled_v1_400.jpg)
![[141] מולטי-מודאליות ב-IBM: איך מאמנים מודלי Vision-Language, עם ד״ר אלי שוורץ [141] מולטי-מודאליות ב-IBM: איך מאמנים מודלי Vision-Language, עם ד״ר אלי שוורץ](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/8cdc35cc794403b4.jpg)
![[140] סלאשרים של בינה מלאכותית: איך המובילים בתעשייה שלנו משלבים חדשנות מחקרית עם נורית כהן אינגר [140] סלאשרים של בינה מלאכותית: איך המובילים בתעשייה שלנו משלבים חדשנות מחקרית עם נורית כהן אינגר](https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/44943178/e709c526b82923de.jpg)


